'''RDD数据计算_filter
filter 功能：过滤想要的数据进行保留
语法：
    rdd.filter(func)
    # func:(T) -> bool 传入一个参数进来随意类型， 返回值必须是True or False
'''

from pyspark import SparkConf, SparkContext
# 使用os 配置python安装位置， 帮助spark找到python;
import os
os.environ['PYSPARK_PYTHON'] = 'D:\\yfxdeve\\python\Python39\\python.exe'

conf = SparkConf().setMaster("local[*]").setAppName("test_park")
sc = SparkContext(conf=conf)

# 准备一个RDD
rdd1 = sc.parallelize([1,2,3,4,5,6])
# 对rdd1 进行过滤 除2余数为0的值
rdd2 = rdd1.filter( lambda x: x % 2 == 0)
print(rdd2.collect()) # [2, 4, 6]

# 关闭
sc.stop()